Large Language Models Are Reasoning Teachers翻译

2023-06-04 05:48| 来源: 网络整理| 查看: 265

摘要

语言模型（LMS）通过使用in-context示例或人类指令，在下游任务上表现出了显着的性能。最近的工作表明，思维链（CoT）提示可以逐步解决复杂的推理任务。但是，基于提示的CoT方法的有效性仅限于非常大的LM，例如GPT-3（175B），从而限制了模型的部署。在本文中，我们重新回顾了在较小的LM中实现复杂推理的微调方法，并进行了优化以有效执行特定任务。我们提出了Fine-tune-CoT，该方法利用了大型LM来生成推理样例并通过微调来对小模型的推理能力进行教学。我们在各种的复杂任务和公开可用的模型尺寸上评估了我们的方法。我们发现，Fine-tune-CoT可以在小型模型中实现实质性推理能力，而以前的基于提示的基线表现出接近随机的性能。student模型甚至可以在某些任务中胜过teacher，同时将模型大小的需求减少了几个数量级。我们进行了广泛的消融和样本研究，以了解student模型的推理能力。我们还确定了几个重要的细微差别，这些细微差别在CoT的同期微调工作中被忽略了，并在我们的分析中解决了这些问题。

1.介绍

在这里插入图片描述　　语言模型（LMS）已在各种下游任务中表现出了出色的性能，这主要归因于由Transformer网络结构和大规模训练数据的可用性所实现的可扩展性。以前关于语言模型的工作遵循了在大型语料库进行预训练，然后在下游任务上进行微调的范式。最近，大型语言模型（LLM）已表现出其in-context的泛化能力：仅以少量上下文样例或原始任务的自然语言描述，来执行下游任务。　　当模型被提示以生成中间推理时，LM还表现出了解决复杂任务的能力。标准提示方法，即使用few-shot问答对或zero-shot指令，已被证明无法处理需要多步推理的下游任务。但是，最近的工作证明了通过使用包含思维链（CoT）推理的few-shot样例或指导模型逐步思考的提示，能激活模型的复杂推理能力。　　基于提示的CoT推理方法的一个主要缺点是它们依赖极大的LM，该模型涵盖了数千亿个参数。由于巨大的计算要求和推理成本，这些模型无法大规模部署。因此，我们努力在小模型中启用这种复杂的推理，以用于现实部署。　　据此，我们提出了一种称为Fine-tune-CoT的方法，该方法旨在利用大LM的CoT推理能力来指导小模型如何解决复杂的任务。为了详细说明，我们应用了现有的zero-shot CoT提示，从非常大的teacher模型生成中间步骤，并使用它们来微调较小的student模型，如图2所示。我们注意到，与标准提示相似，原始微调通常不足以训练LM来解决复杂的推理任务。尽管已经尝试通过显式的推理步骤来微调小型模型以解决此问题，但它们需要困难的推理标注工作，并且通常还需要特定于任务的训练设置。另一方面，由于无需人工标注的推理步骤或特定于任务的设置，我们的方法可以很容易地应用于新的下游任务上，这是由于基于LM的teacher的显着zero-shot能力。从本质上讲，我们的方法保留了基于提示的CoT的多功能性，而无需过大的模型。　　我们对我们的方法进行了扩展，称为多样性推理，通过为每个训练样本生成多种推理解决方案，从而最大程度地提高了微调的效果。这可以简单地通过重复随机抽样来实现。多样性推理是被下述直觉所启发，即可以使用多个推理路径来解决复杂的type-2任务。我们认为，推理路径和语言模板的这种多样性可以实质上有助于微调复杂的推理。　　我们使用公开可用的GPT-3模型对各种任务和模型尺寸进行Fine-tune-CoT和多样性推理的经验评估。我们的微调方法在能显著提高小模型对复杂任务的推理性能，而以前的基于提示的方法仅为几乎随机的性能。我们表明，在一些任务中，Fine-tune-CoT的小型模型甚至超过了他们的teacher模型。通过多样性推理，我们发现Fine-tune-CoT的性能是高度可扩展的，即使有很少的训练样例，也可以提高样本效率和显着的推理性能。我们进行了详尽的样本研究和Fine-tune-CoT的消融实验及其在众多数据集上的性能，同时证明了其在较小的模型上的价值。为此，我们阐明了以前工作中未考虑的关于CoT推理的重要细微差别。

2.相关工作

Downstream transfer in language models。大多数先前的工作为增强大语言模型在下游任务的性能，建立了一个预训练并微调的范式。然后，考虑到微调需要大量特定任务标注的数据集，并且经常无法很好的泛化到集外设置，因此无法具有较好的应用。　　更多最近的文献提出了一种提示模型以预测期望输出的范式。在这种设置下，大语言模型能表现出强大性能。小模型为了能达到类似的性能，需要额外的操作。在复杂任务中，基于提示的大语言模型能够使用思维链（CoT）提示来提升其性能。这种方法受使用具有显式推理步骤的样例对模型进行微调的启发，后者通常要求人工的推理标注以及特定任务的训练。　　Chain-of-thought。在few-shot CoT提示中，模型被给定具有自然语言描述的逐步推理的样例。然后模型能够生成中间推理步骤，从而解决问题。这种方式在各种任务上都获得了性能提升。并且，通过使用zero-shot CoT中，LLM也能够在无监督任务无关的设置中表现良好。这不需要进行微调或以特定任务为条件输入，并且在大量任务上超越标准的zero-shot方法，甚至有时超越few-shot。　　然而，先前的工作说明，只有在较大模型上，CoT才能取得较好性能。在我们的工作中，我们使用由大模型生成推理步骤来微调小模型，以利用CoT的推理过程。使用各种LLM生成的解释来微调较小的模型在先前的工作中已经取得成功。另外，一种和我们论文类似的方法在(Huang et al., 2022)中被提到，然后我们注意到，当前工作主要关注的是使用few-shot CoT来自生成微调样例。虽然该论文作者对使用zero-shot CoT生成推理样例以微调小模型进行了简短描述，但其结果仅限制在一个数据集以及无法访问的大模型。相反，我们提供了丰富的结果集，以及在各种数据集上的定性和定量分析，并且使用了可访问的小的开源模型。　　Knowledge distillation。传统知识蒸馏是指训练一个从大模型得到的小模型，以减少模型的尺寸和延迟，同时准确率保持不变。本质上，KD是模型压缩的一种方法，以在容量受限的设备上进行部署。我们注意到我们的工作也可以被看作是KD的一个变体，这与Yoo et al. (2021); Schick and Schütze (2021b,a); Zelikman et al. (2022)这些基于提示的方式类似。最接近的工作是数据无关的蒸馏，其中无法访问的迁移数据是从大的teacher模型合成得到。类似地，sequence-level蒸馏，即使用大的teacher模型的beam search输出来训练较小模型，能够提升神经机器翻译的性能。通过在自回归翻译模型的输出上进心训练，相关KD方法同样被用于去提升非自回归翻译。尽管很类似，我们的方法和先前的工作仍然有较大不同。我们方法中teacher模型的角色是对中间推理进行标注。

3.Chain of Thought Fine-Tuning

在这里插入图片描述　　我们提出了Fine-tune-CoT，这是一种任务无关的方法，可以在小语言模型中实现思维链推理。核心思想是使用基于提示的COT方法从非常大的teacher模型中生成推理样本，然后使用生成的样本微调小型student模型。这种方法保留了基于提示的COT方法的任务无关优势，同时克服了它们对大模型的依赖。为了最大化多样性，我们在teacher模型上使用了最近的zero-shot-CoT提示方法，因为它不需要任何人工标注的推理解释。我们注意到，我们的方法不受限于这种提示teacher模型的方式。在以下内容中，我们以三个不同的步骤介绍Fine-tune-CoT，如图2所示。　　Step 1. Reasoning generation。　　Step 2. Curation。　　Step 3. Fine-tune。

【本文地址】

公司简介

联系我们